BriefGPT.xyz
大模型
Ask
alpha
关键词
d$^4$la dataset
搜索结果 - 1
ICCV
文档布局分析的视觉网格变换器
本文介绍了 VGT 模型,它是一种双流视觉格点变换器,通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解,利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外,还通过 D$^4$LA 数据集,在文档布局分析中达到了最新的最
→
PDF
10 months ago
Prev
Next